1
统计量作为随机变量:抽样分布
MATH003Lesson 4
00:00
在统计推断中,我们从观察单个数据点转向分析一个**统计量**——即样本序列的函数映射 $Y = h(X_1, X_2, \dots, X_n)$。由于底层样本由随机变量组成,该统计量本身也是一个随机变量,其概率规律被称为**抽样分布**。

统计量作为映射

统计量的形式定义为一个函数 $h: \mathbb{R}^n \to \mathbb{R}$。我们通过原像来定义统计量落入集合 $B$ 的概率:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

独立同分布基础

对于一组独立同分布(i.i.d.)的随机变量样本,特定样本点 $(x_1, \dots, x_n)$ 的联合概率等于其边缘概率的乘积:$p(x_1)p(x_2)\dots p(x_n)$。该乘积在计算统计量取某一特定值的总概率时,充当每个样本点的权重。

例 4.1.1:几何平均数

考虑一个离散总体,其中 $p_X(1) = 1/2$,$p_X(2) = 1/4$,$p_X(3) = 1/4$。我们抽取大小为 $n=2$ 的样本 ($X_1, X_2$),并将统计量定义为几何平均数:$Y_2 = (X_1 X_2)^{1/2}$。

为了求出 $Y_2$ 的分布,我们列出所有 9 种可能的配对 $(X_1, X_2)$,计算它们的联合概率以及对应的 $Y_2$ 值:

配对 $(x_1, x_2)$概率 $P(x_1)P(x_2)$$Y = \sqrt{x_1 x_2}$
(1, 1)1/41.000
(1, 2),(2, 1)1/8 + 1/8 = 1/41.414
(1, 3),(3, 1)1/8 + 1/8 = 1/41.732
(2, 2)1/162.000
(2, 3),(3, 2)1/16 + 1/16 = 1/82.449
(3, 3)1/163.000

精确分布与渐近分布

在进入中心极限定理(CLT)等极限定理之前,我们必须掌握“精确分布”。这包括在给定较小且有限的 $n$ 时,计算统计量的具体概率质量函数或密度函数。当解析形式难以处理时,我们转而使用数值模拟方法,如**蒙特卡洛近似**。

🎯 核心原则
抽样分布是某个独立同分布序列函数所对应的随机变量的分布。它是原始数据与科学推断之间的桥梁。